Introdução à Programação com Triton: O Modelo de Execução Paralela: Pensando em Blocos

Migrar da programação serial em CPU para programação em GPU exige uma mudança de paradigma: da iteração por elementos para execução baseada em blocos. Já não vemos os dados como uma sequência de escalares, mas como coleções de "blocos" agendados para saturar a largura de banda do hardware.

1. Limitado por Memória vs. Limitado por Computação

O gargalo de um kernel é determinado pela razão entre operações matemáticas e acessos à memória. A soma de vetores geralmente é limitada por memória porque realiza apenas uma adição para cada três operações de memória (2 leituras, 1 escrita). O hardware gasta mais tempo esperando pelo DRAM do que calculando.

2. O Papel do BLOCK_SIZE

BLOCK_SIZE define a granularidade da paralelização. Se for muito pequeno, subutilizamos os largos canais de execução da GPU. Um tamanho ótimo garante suficiente "trabalho em andamento" para saturar o barramento de memória.

3. Ocultação de Latência por Ocupação

Ocupação é o número de blocos ativos na GPU. Embora não seja o objetivo final, permite ao planejador trocar um novo bloco para realizar cálculos enquanto outro espera por acessos de memória de alta latência da VRAM.

4. Utilização de Hardware

Para maximizar o desempenho, devemos alinhar nosso BLOCK_SIZE com as regras de agrupamento de memória da arquitetura da GPU, garantindo que threads consecutivas acessem endereços de memória consecutivos.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

For a kernel that adds two vectors ($out = x + y$), what is the most likely bottleneck on modern GPUs?

Arithmetic Throughput

Memory Bandwidth

Shared Memory Latency

QUESTION 2

What is the primary purpose of 'Occupancy' in the GPU execution model?

To ensure every thread runs as fast as possible.

To hide memory latency by keeping work in flight.

To increase the clock speed of the compute units.

To reduce the power consumption of the HBM.

QUESTION 3

Which of the following describes 'Memory-Bound' behavior?

The GPU is waiting for the memory bus to deliver data.

The GPU has exhausted its available VRAM.

The kernel is performing too many complex floating-point operations.

The CPU cannot launch kernels fast enough.

QUESTION 4

What happens if the BLOCK_SIZE is set too small?

The kernel will fail with a memory error.

The GPU fails to utilize its wide SIMD execution lanes.

The memory bandwidth increases significantly.

QUESTION 5

In the logistics warehouse analogy, what represents the 'Blocks'?

The individual items.

The workers.

The organized pallets.

The delivery trucks.